iT邦幫忙

2021 iThome 鐵人賽

DAY 17
0
AI & Data

30Day 從一介凡人羽化成資料科學初學者系列 第 17

Day17-sklearn(2)LabelEncoder、train_test_split

  • 分享至 

  • xImage
  •  

今天要介紹這兩個sklearn的方法
也是資料前處理常用到的

LabelEncoder:
就如同字面上意思,會將標籤做編碼
當我們想把一筆資料拿去train時,必須將所有的值都轉成數字,這樣電腦才能看懂,因為像是字串此類型的資料是無法直接拿下去train,而有時因為資料眾多將每個字串都轉成數字的工作將會變得耗時又繁瑣。
LabelEncoder就能快述的幫助我們做到快述的編碼
import方式:
https://ithelp.ithome.com.tw/upload/images/20210830/201404165enKp1ix7X.png
我先建立一個示範資料
https://ithelp.ithome.com.tw/upload/images/20210830/201404165kknFLADwF.png
使用方式:
將LabelEncoder方法指派給一個變數
之後使用fit_transform後方填入要encoder的值
https://ithelp.ithome.com.tw/upload/images/20210830/20140416BbAZ19TxOF.png
輸出結果:
同為apple的字串被編為0、banana為1、orange為2
https://ithelp.ithome.com.tw/upload/images/20210830/2014041699qtrVSzoK.png

train_test_split:
快速的將資料分為訓練集和驗證集
import方式:
https://ithelp.ithome.com.tw/upload/images/20210830/20140416zMaBOPUtT5.png
使用方式:
train_test_split後方參數第一個為特徵值、第二個target、第三個是要分成的比例
之後會回傳四個值 順序為訓練集特徵值、驗證集特徵值、訓練集target、驗證集traget
https://ithelp.ithome.com.tw/upload/images/20210830/20140416L9LG435ycP.png
使用範例:
我使用在Titanic資料集,train_set總共有891筆資料 根據test_size=0.1
所以分成801筆與90筆
https://ithelp.ithome.com.tw/upload/images/20210830/201404161RiIiWgkM0.png


上一篇
Day16-sklearn(1)正規化StandardScaler、MinMaxScaler、MaxAbsScaler
下一篇
Day18-pytorch(1)認識tensor
系列文
30Day 從一介凡人羽化成資料科學初學者30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言